2024年4月にアップデートした、GPT-4 Turboの実力
OpenAIとChatbot Arenaの結果を2つ紹介する。
結論
gpt-4-turbo-2024-04-09が、Claude3 Opusと同じか、それより少し性能が良い結果となった。
前回のAPI versionと比較して、特に推論能力が大幅に強化されている。
ChatGPT有料版はすでにこのアップデートが反映されている
感じたこと
ほとんどの処理は、ChatGPTの有料版を使えば合格点と言える。
一部の特殊なケースでは、引き続きClaude3を使用するのが良さそう。
長文処理が必要なタスク(論文翻訳や要約)
(Chatbot ArenaではClaude3 Opusが首位)
より自然な日本語が必要なタスク
生成速度が気になるほど、急いでいるタスク
OpenAIの実験結果
https://github.com/openai/simple-evals
Evals
MMLU (汎用的な問題)
MATH (高度な推論)
GPQA (高度な推論)
DROP (読解力 & 推論)
MGSM (推論)
HumanEval (コード)
結果
https://github.com/openai/simple-evals?tab=readme-ov-file#benchmark-results
前回のAPI(gpt-4-0125-preview)との比較
https://scrapbox.io/files/661b2acbd954a7002618353d.png
https://twitter.com/OpenAI/status/1778574613813006610
https://scrapbox.io/files/661aff9821dd1700251dba27.png
gpt-4-turbo-2024-04-09が、ほぼ全てのタスクで、前回を上回る結果に。
推論能力が大幅に強化されたといえる
特に、GPQA(大学院レベルの激ムズデータセット)のスコアが、顕著に上昇
Knowledge cutoffも2023年12月となり、MMLU/DROPなどのスコア改善に寄与しているか。
HumanEval(コーディング)だけ若干下がっているが、軽微と考えられる。
Claude3 Opusとの比較
https://scrapbox.io/files/661b04f170ac9200255727c3.png
上2つが今回の実験結果
emptyは、system messageが空
lmsysは、以下のFastChatで設定されたsystem message
https://github.com/lm-sys/FastChat/blob/7899355ebe32117fdae83985cf8ee476d2f4243f/fastchat/conversation.py#L894
一番下は、Claude3の紹介で報告された数値
4/6のタスク(GPQA (高度な推論)と MGSM (推論)を除く)で、GPT-4 Turboに軍配が。
明確にClaude3 Opusより優れている!とはなかなか言えない結果で、同じかやや性能がいいくらいという認識で良いだろう。
Gemini 1.5 Proとの比較
https://scrapbox.io/files/661b05a33053fb00246d4f14.png
Gemini 1.5 Pro テクニカルレポートで報告された数値との比較
gpt-4-turbo-2024-04-09が、4/5のタスクで上回る結果に。
Chatbot Arenaでの結果
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
https://scrapbox.io/files/661b24d4f0661f0025010250.png
総合評価では、gpt-4-turbo-2024-04-09が、Arena Eloレーティングで首位を獲得
2位がClaude3 Opus
長いクエリでは、Claude3 Opusが首位 (2位と僅差だが)
https://scrapbox.io/files/661b269ffaed0c0025f8bed4.png